智能论文笔记

Lexicon-constrained Copying Network for Chinese Abstractive Summarization

Boyan Wan , Mishal Sohail

分类：自然语言处理

2020-10-16

复制机制允许序列到序列模型从输入中选择单词并将它们直接放入输出中，这在抽象总结中发现越来越多的使用。但是，由于汉语句子中没有明确的分隔符，所以最现有的中国抽象摘要模型只能执行字符副本，从而导致效率低下。为了解决这个问题，我们提出了一个词典约束的复制网络，在编码器和解码器中模拟多粒度。在源端，单词和字符使用变换器基编码器聚合到相同的输入存储器中。在目标方面，解码器可以在每个时间步骤复制字符或多字符字，并且解码过程由一个词增强的搜索算法引导，其促进并行计算并鼓励模型复制更多单词。此外，我们采用单词选择器来集成关键字信息。实验结果在中国社交媒体数据集显示我们的模型可以独立或使用单词选择器。这两种形式都可以胜过以前的基于角色的模型并实现竞争性表现。

translated by 谷歌翻译

Anticancer Peptides Classification using Kernel Sparse Representation Classifier

Ehtisham Fazal , Muhammad Sohail Ibrahim , Seongyong Park , Imran Naseem , Abdul Wahab

分类：机器学习

2022-12-19

Cancer is one of the most challenging diseases because of its complexity, variability, and diversity of causes. It has been one of the major research topics over the past decades, yet it is still poorly understood. To this end, multifaceted therapeutic frameworks are indispensable. \emph{Anticancer peptides} (ACPs) are the most promising treatment option, but their large-scale identification and synthesis require reliable prediction methods, which is still a problem. In this paper, we present an intuitive classification strategy that differs from the traditional \emph{black box} method and is based on the well-known statistical theory of \emph{sparse-representation classification} (SRC). Specifically, we create over-complete dictionary matrices by embedding the \emph{composition of the K-spaced amino acid pairs} (CKSAAP). Unlike the traditional SRC frameworks, we use an efficient \emph{matching pursuit} solver instead of the computationally expensive \emph{basis pursuit} solver in this strategy. Furthermore, the \emph{kernel principal component analysis} (KPCA) is employed to cope with non-linearity and dimension reduction of the feature space whereas the \emph{synthetic minority oversampling technique} (SMOTE) is used to balance the dictionary. The proposed method is evaluated on two benchmark datasets for well-known statistical parameters and is found to outperform the existing methods. The results show the highest sensitivity with the most balanced accuracy, which might be beneficial in understanding structural and chemical aspects and developing new ACPs. The Google-Colab implementation of the proposed method is available at the author's GitHub page (\href{https://github.com/ehtisham-Fazal/ACP-Kernel-SRC}{https://github.com/ehtisham-fazal/ACP-Kernel-SRC}).

translated by 谷歌翻译

Instance-dependent uniform tail bounds for empirical processes

Sohail Bahmani

分类： (统计)机器学习

2022-09-21

我们根据函数的个体偏差而不是考虑类别中最严重的偏差，为由一类函数索引的经验过程制定了统一的尾巴。尾巴结合是通过向标准通用链条参数引入初始“通缩”步骤来建立的。最终的尾巴绑定具有主要的复杂性分量，这是talagrand的$ \ gamma $ functional for deflated函数类功能的变体，以及一个依赖实例的偏差术语，该术语由合适的规范的适当缩放版本来衡量。这两个术语均使用基于相关累积生成函数制定的某些系数表示。当函数类位于给定（指数类型）Orlicz空间时，我们还为上述系数提供了更明确的近似值。

translated by 谷歌翻译

Feature Selection Enhancement and Feature Space Visualization for Speech-Based Emotion Recognition

Sofia Kanwal , Sohail Asghar , Hazrat Ali

分类：人工智能 | 机器学习

2022-08-19

强大的语音情感识别取决于语音特征的质量。我们提出语音功能增强策略，以改善语音情感识别。我们使用了Interspeech 2010挑战功能集。我们从特征集合和应用原理分析分析到子集中确定了子集。最后，这些功能水平融合。在应用特征以识别情绪之前，使用T分布的邻居嵌入（T-SNE）分析所得的功能集。将该方法与文献中使用的最新方法进行了比较。经验证据是使用两个著名数据集绘制的：情感语音数据集（EMO-DB）和Ryerson Audio-Visual Visual Envial语音和歌曲（Ravdess）分别用于两种语言，即德语和英语。与基线研究相比，我们的七个情绪中有六个情绪中有六个情绪中有六个情绪中有六个情绪中的六个情绪中的六个情绪中的六个情绪中的六个情绪中的六个情绪中的六个情绪中的六个情绪中获得了11.5 \％的平均识别增益，而RAVDESS数据集中的七个情绪为13.8 \％。

translated by 谷歌翻译

Hybrid Transformer Network for Deepfake Detection

Sohail Ahmed Khan , Duc-Tien Dang-Nguyen

分类：计算机视觉

2022-08-11

DeepFake媒体如今正变得广泛，因为具有易于使用的工具和移动应用程序可以生成现实的DeepFake视频/图像，而无需任何技术知识。随着在不久的将来的这一技术领域的进一步进步，预计深冰媒体的数量和质量也将蓬勃发展，同时使DeepFake Media成为传播错误/虚假信息的可能新的实用工具。由于这些担忧，深层媒体检测工具已成为必要。在这项研究中，我们提出了一个新型混合变压器网络，利用早期功能融合策略进行深击视频检测。我们的模型采用两个不同的CNN网络，即（1）XceptionNet和（2）效率网络B4作为特征提取器。我们在FaceForensics ++，DFDC基准测试中以端到端的方式训练两个功能提取器。我们的模型在具有相对简单的体系结构的同时，在对FaceForensics ++和DFDC基准进行评估时，取得了与其他更先进的最先进方法相当的结果。除此之外，我们还提出了新颖的面部切割增加以及随机切割的增加。我们表明，提出的增强改善了模型的检测性能并减少过度拟合。除此之外，我们还表明我们的模型能够从少量数据中学习。

translated by 谷歌翻译

Classification of datasets with imputed missing values: does imputation quality matter?

Tolou Shadbahr , Michael Roberts , Jan Stanczuk , Julian Gilbey , Philip Teare , Sören Dittmer , Matthew Thorpe , Ramon Vinas Torne , Evis Sala , Pietro Lio

分类：机器学习

2022-06-16

在不完整的数据集中对样本进行分类是机器学习从业人员的普遍目的，但并非平凡。在大多数现实世界数据集中发现缺失的数据，这些缺失值通常是使用已建立的方法估算的，然后进行分类现在完成，估算的样本。然后，机器学习研究人员的重点是优化下游分类性能。在这项研究中，我们强调必须考虑插补的质量。我们展示了如何评估质量的常用措施有缺陷，并提出了一类新的差异评分，这些分数着重于该方法重新创建数据的整体分布的程度。总而言之，我们强调了使用不良数据训练的分类器模型的可解释性损害。

translated by 谷歌翻译

Towards Low-Cost and Efficient Malaria Detection

Waqas Sultani1 , Wajahat Nawaz , Syed Javed , Muhammad Sohail Danish , Asma Saadia , Mohsen Ali

分类：计算机视觉

2021-11-26

疟疾，一种致命但可治愈的疾病每年索赔数十万人生命。早期和正确的诊断对于避免健康复杂性至关重要，但这取决于昂贵的显微镜和培训专家分析血液涂抹幻灯片的可用性。基于深度学习的方法可能不仅可以降低专家的负担，而且还提高了低成本显微镜的诊断准确性。但是，由于没有合理的大小数据集，这是阻碍的。最具挑战性的方面之一是专家不愿意在低成本显微镜下以低放大率注释数据集。我们提出了一种数据集，以进一步研究低放大率低成本显微镜的疟疾显微镜。我们的大型数据集由来自几种疟疾感染患者的血液涂抹幻灯片的图像组成，通过显微镜在两种不同的成本谱和多个放大倍数中收集。用于在高放大率下通过高成本显微镜收集的图像的定位和寿命分类任务的疟原虫细胞。我们设计了一种机制，将这些注释从高倍率从高倍率转移到低成本显微镜，多倍放大。多个对象探测器和域适配方法作为基准。此外，引入了部分监督的域适配方法以使对象检测器适应从低成本显微镜收集的图像上的工作。该数据集将在发布后公开可用。

translated by 谷歌翻译